経済学のための機械学習入門
統計コンセプト(平均、OLS)について、初歩的な理解を持ち、 R (ないしPython)に触れたことがある院生/学部生が執筆する論文のQuality Up
各自のResearch Questionについて、より頑強、 現実的な計算時間かつ多様な推定量を紹介
キャッチアップする意欲がる完全初学者も歓迎
経済学以外の背景 (他の社会科学や医学、工学など) の受講生も歓迎
講義 + Live coding + 実習
実習ではRをサポート
課題はpythonでもOK
関連性が高くおすすめの科目: 坂口さんの提供する
Machine Learning for Economics
経済学とコンピューターサイエンスⅠ/II
本講義の比較優位: 言語が日本語!?, セミパラ推定への応用においてTreatment Effect Risk (Kallus 2022) やSensitivity (Chernozhukov et al. 2022) を紹介
教師付き学習 (Stacking with OLS and RandomForest)
セミパラ推定への応用 ((Population) Parameter Estimation with mixed-bias property (Rotnitzky, Smucler, and Robins 2021))
時間があれば他のアルゴリズム紹介 (LASSO/Boosting/BARTなど)
“more flexible and more principled”に課題解決
定式化問題
予測モデルを作れと言われたが、どのような式を推定すれば良いのかわからない
コントロール変数を加えた分析をしたいが、どのように定式化すれば良いのかわからない
効果の異質性を検証したいが、どのように定式化すれば良いのかわからない
どのように研究課題をデータ分析に落とし込めばいいのか、わからない
Deep Learning, Generative Model (Koenecke and Varian 2020; Kaji, Manresa, and Pouliot 2020), Text Analysis (Gentzkow, Kelly, and Taddy 2019), Causal Discovery (Nogueira et al. 2022), Reinforcement learning (Iskhakov, Rust, and Schjerning 2020)
Economics of Machine Learning (Asker et al. 2022; Farboodi and Veldkamp 2022; Acemoglu 2021)
講義中にRで作業できる環境整備
おすすめは
Localに R+ Rstudioをインストール
講義資料とExampleDataを講義レポジトリ からダンロード
統計学とは異なるルーツを持つデータ分析方法
学術・実務研究において、幅広く活用されている手法群を提供
Estimandは明確に定義できるが、変数間の具体的関係性はBlackBoxな応用 (経済学!!!)において高い比較優位
計量〇〇において、母関数への”Fitting”を行うツールとして広く利用される
計算機〇〇において、さらに高い期待?
教師付き学習
予測研究のみならず、記述・比較・因果研究においても応用法が”確立”されている
Semiparametric 推定の議論 (Neway, Ichimura, Robinson, Robins…)を活用
教師なし学習, 強化学習, 敵対学習等々
\{Y,X\} が観察できるデータ(事例集)を用いて、 \{Y,X\}の一般的な関係性を要約する関数を推定する
一般的とは?
研究のゴール: “合意可能”かつ”有益な”結論を得る
同じ事例集であれば、同じ結論を得ることは難しくない
同じ社会を対象として同じ方法で事例収集しても、研究者によって事例が異なり、厳密な合意はできない
母集団を用いて論点整理
サンプリング & 母集団
母集団から、データが発生 (サンプリング) する
データは研究者によって異なるが、母集団は共通(“一般的”)
“無限大のサンプルサイズを持つデータ”
同時分布 f_P(Y,X) を用いて、記述
直接観察(正確に推定)されることは“あり得ない”
f_P(Y,X) を全て推定することは極めて困難
応用上、有益な一側面 (Estimand) を推定
OLSと”同じ”!!!
E_P[Y|X]:=\int Yf_P(Y|X)dY
母集団から生成された、有限の事例数(データ)のみ活用可能とする
生成は確率的に行われる
データのみから、母集団について得られる含意はほとんどない (“世の中いろんな人がいる”どまり)
仮定を追加し、推論を進める
ランダムサンプリングの仮定: 事例は母集団から、ランダムサンプリングされる
“不透明”な仮定は極力減らす
E_P[Y|X] を近似する関数 g_Y(X) を推定する
E_P\bigr[(E_P[Y|X]-g_Y(X))^2\bigr]
伝統的推定と”同じ”!!!
伝統的推定: 推定するモデルの”複雑さ”を研究者が事前に指定 \rightarrow 複雑すぎたり、単純すぎたり
機械学習: モデルの複雑さもデータが決定
ShortOLS: g_Y(X) = \beta_0 + \beta_1X と”決め打ち”し、\beta をデータにもっとも適合するように推定
LongOLS: g_Y(X) = \beta_0 + \beta_1X+..+\beta_{20}X^{20} と”決め打ち”し推定
Stacking: OLSとRandomForestの加重平均
新しい事例について、X から Y を予測できるか?
同じ母集団の事例であれば、 E_P[Y|X] は理想的な予測モデル
教師付き学習で生成される g_Y(X) は、実用的な予測モデル
教師付き学習のそもそもの動機
実務(政策)研究において、極めて重要
経済学研究としては、動機付けに工夫が必要!!!
1年後生存 (=Y) を、個人属性(病歴含む) (=X) から予測
研究動機: 終末期医療問題への基礎研究
結論: できない
注目するX を一つPick Upし、 予測値との関係性を図示
他の属性の値はどのように設定?
各事例について、部屋の広さ(Size)のみを仮想的に変化させた場合の予測値の推移
国交省が提供する 不動産取引価格情報 から東京23区の2017/22年に取引された中古マンション取引事例を取得
中古マンションの取引価格、取引時期を予測
Y = 取引価格(100万円), 取引年 (=1 2021, =0 2019)
X = 立地, 駅からの距離(分)、部屋の広さ、構造など
OLS: g_Y(X) = \beta_0 + \beta_1X_1 + .. + \beta_L X_L
Stacking: OLSとRandomForestの加重平均
母集団の複雑さを捉える VS 有限のデータから推定する
伝統的アプローチ: 研究者が経験 (ヤマカン)で設定
教師付き学習: よりデータ主導
注意: 良い予測モデル \neq 母集団の特徴理解に有益なモデル
機械学習を何に応用できるか?
統計学の伝統的な用語(最尤法、ベイズ推定など)、“因果推論の用語” (RCT, マッチングなど)などともに、応用上の混乱がみられる
できること/できないことが、不正確に喧伝される
過剰なナワバリ、縦割り的理解が散見される
経済学における典型的な研究課題
Descriptive Comparison: (例) 同一学歴内男女間平均賃金格差
Causal Inference: (例) 最低賃金の増加が雇用に与える平均効果
2019-2021年にかけて、中古マンションの市場価格はどのように変化したのか?
市場とは? (一物一価を用いて定義)
マンションの属性ごとに細分化されている
全く同じ属性の物件間で2019/2021年比較したい
教師付き学習の出番なし?
Y_i=\beta_0 + \tau\times D_i +\beta_1X_{1i} +..+ \underbrace{u_i}_{Normal}
データから観察できる属性 \neq 物件の全属性
例えば以下が仮定できればOK
f_P(Y_i|D,X,\underbrace{U}_{観察不可能})=f_P(Y_i|D,X)
データは、データにない変数について何か語れるか?
例えば X の選択 (Gupta, Childers, and Lipton 2023)
f_P(Y|D,X) の推定は難しい
重要な特徴を捉え、人間が認知でき、推定できる程度に単純化
例
\tau_P(X)=E_P[Y|2021,X]-E_P[Y|2019,X] : 条件付き平均差
\tau_{P,Average} = \int_{X}\omega(X)\times\tau_P(X)dX : 周辺化条件付き平均差 (\omega(X) : 加重)
データ主導で認知可能なモデリングは可能だが (LASSOなど)、推定誤差の評価が難しい
教師付き学習の有力な応用先
Naiveな応用は、教師付き学習の推定結果がもつ悪い性質 (収束が遅い) の影響をまともに受ける
教師付き学習をNonparametric推定に応用:
E_P[Y|X],E_P[D|X] を機械学習などで推定 \rightarrow g_Y(X),g_D(X) を得る
Y-g_Y(X) を D-g_D(X) でOLS回帰
回帰係数を、\tau_{P,Average} の推定値として使用
E_P[Y|X],E_P[D|X] の推定誤差の影響を、緩和できる
OLS推定の一般化
E_P[Y|X],E_P[D|X] を同じ線形モデルで回帰すればOLS
一般に一致推定量にならない
Estimates and significance testing of the effect of target variables
Estimate. Std. Error t value Pr(>|t|)
d 0.111256 0.003402 32.7 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
E_P[Y|D,X] を最尤法, ベイズ, 機械学習などで推定
推定値を E_P[Y|D,X] に代入して、Estimandを計算
E_P[Y|D,X] の推定精度に決定的に依存する
教師付き学習は収束が遅く、信頼区間も計算できない
Parametric Modelは、一般に収束しない(一致性がない)
Partialling-outは一般化できる
ATE推定, Conditional Average Treatment Effect推定 (Semenova and Chernozhukov 2021; Kallus 2022; Wager and Athey 2018) , Mediation Analysis (Farbmacher et al. 2022; Dı́az et al. 2021) , Sensitivity Analysis (Chernozhukov et al. 2022) などなど
Estimationが改善したことで、活用できるIdentification, Summaryが増える!!!
識別の議論は決定的に異なる: 観察できない変数への仮定、 Interferenceへの仮定
Summary, Estimationは多くの場合よく似ている
\mathbb{E}[(\mathbb{E}[Y|X]-f(X))^2] を可能な限り削減する関数 f(X) の推定
\mathbb{E}[Y|D,Z] を特徴づける研究者により事前に定義された有限個のパラメータの推論
Short Introduction: Daoud and Dubhashi (2020)
TextBook:
Article
Estimand: E[NumApplicamt|PostWage,JobDescription]
Identification: 価格モデルを前提とした場合、オンライン労働市場における供給独占(Monopsony)を測定可能
Summary: 平均差に注目
Estimation上の問題: Web Scrapingで収集した実際の求人データ
研究課題: 民間が行う新職業訓練 VS 政府が行う新職業訓練の因果効果
Estimand: E[6ヶ月以内再就職|職業訓練の種類]
Identification: RCT
Summary: 平均差に注目
Estimation上の問題: ほぼない(平均差の推定でOK)!!!
Estimand: E_P[\tau_P(X)|\tau_P(X)\le Q(\tau_P(X),q)]
\tau_P(X)=E_P[Y|D=2021,X]-E_P[Y|D=2019,X]
Q(\tau_P(X),q)= qth quantile
因果効果が低い(マイナス)のサブグループにおける平均効果